Prior work has shown that Visual Recognition datasets frequently underrepresent bias groups $B$ (\eg Female) within class labels $Y$ (\eg Programmers). This dataset bias can lead to models that learn spurious correlations between class labels and bias groups such as age, gender, or race. Most recent methods that address this problem require significant architectural changes or additional loss functions requiring more hyper-parameter tuning. Alternatively, data sampling baselines from the class imbalance literature (\eg Undersampling, Upweighting), which can often be implemented in a single line of code and often have no hyperparameters, offer a cheaper and more efficient solution. However, these methods suffer from significant shortcomings. For example, Undersampling drops a significant part of the input distribution while Oversampling repeats samples, causing overfitting. To address these shortcomings, we introduce a new class conditioned sampling method: Bias Mimicking. The method is based on the observation that if a class $c$ bias distribution, \ie $P_D(B|Y=c)$ is mimicked across every $c^{\prime}\neq c$, then $Y$ and $B$ are statistically independent. Using this notion, BM, through a novel training procedure, ensures that the model is exposed to the entire distribution without repeating samples. Consequently, Bias Mimicking improves underrepresented groups average accuracy of sampling methods by 3\% over four benchmarks while maintaining and sometimes improving performance over non sampling methods. Code can be found in https://github.com/mqraitem/Bias-Mimicking
translated by 谷歌翻译
最近的自我监督方法使用了大规模的图像文本数据集来学习强大的表示,这些表示无需填补即可将其转移到许多任务。这些方法通常假定其图像与其(简短)字幕之间存在一对一的对应关系。但是,许多任务需要有关多个图像和长文本叙述的推理,例如描述带有视觉摘要的新闻文章。因此,我们探索了一个新颖的环境,其目标是学习一个自我监督的视觉语言表示,该表示对改变文本长度和图像数量是可靠的。此外,与假设字幕的先前工作不同,我们假设图像仅包含与文本的宽松说明对应关系。为了探索这个问题,我们介绍了一个大规模的多模式数据集,其中包含31m文章,22m图像和1M视频。我们表明,对具有多个图像的更长叙述,最新的图像文本对齐方法并不强大。最后,我们介绍了一个直观的基线,该基线在GoodNews数据集上在零摄像集检索上胜过10%。
translated by 谷歌翻译
属性操作的目的是控制给定图像中的指定属性。先前的工作通过学习每个属性的分解表示形式来解决此问题,以使其能够操纵针对目标属性的编码源属性。但是,编码的属性通常与相关的图像内容相关。因此,源属性信息通常可以隐藏在分离的功能中,从而导致不需要的图像编辑效果。在本文中,我们提出了一个属性信息删除和重建(AIRR)网络,该网络可以通过学习如何完全删除属性信息,创建属性排除的功能,然后学习将所需属性直接注入重建图像中。我们在四个不同的数据集上评估了我们的方法,其中包括多种属性,包括DeepFashion合成,DeepFashion Fashion Felasion Feline Attribute,Celeba和Celeba-HQ,我们的模型将属性操纵精度和TOP-K检索率提高了10% 。一项用户研究还报告说,在多达76%的案件中,AIRR操纵图像比先前的工作更优选。
translated by 谷歌翻译
视觉语言导航(VLN)在其视觉环境中遵循语言指令,在该前提是输入命令在环境中完全可行的前提下进行了研究。然而,实际上,由于语言歧义或环境的变化,可能无法提出要求。为了使用未知命令可行性研究VLN,我们引入了一个新的数据集移动应用程序任务,并使用迭代反馈(Motif),目标是在移动应用程序中完成自然语言命令。移动应用程序提供了一个可扩展的域来研究VLN方法的下游用途。此外,移动应用命令为交互式导航提供了指令,因为它们通过单击,键入或刷新而导致状态更改的动作序列。主题是第一个包含可行性注释的主题,其中包含二进制可行性标签和细粒度标签,原因是为什么任务不满意。我们进一步收集了模棱两可的查询的后续问题,以使解决任务不确定性解决。配备了我们的数据集,我们提出了可行性预测的新问题,其中使用自然语言指令和多模式应用程序环境来预测命令的可行性。主题提供了一个更现实的应用数据集,因为它包含许多不同的环境,高级目标和更长的动作序列。我们使用主题评估交互式VLN方法,量化当前方法对新应用环境的概括能力,并衡量任务可行性对导航性能的影响。
translated by 谷歌翻译
自动编写长品是一个复杂和挑战的语言生成任务。前工作主要专注于使用人写的提示生成这些文章,以提供一些关于文章的局部背景和一些元数据。也就是说,对于许多应用程序,例如生成新闻报道,这些文章通常与图像及其字幕或alt文本配对,这反过来基于真实的事件,并且可以参考许多不同的命名实体通过语言模型正确识别和预测。为了解决这两个问题,本文介绍了一个具有图像信息的实体感知新闻生成方法,Engin,将新闻图像信息结合到语言模型中。 Engin在元数据和从图像中提取的标题和命名实体之类的元数据上生成有关的新闻文章。我们还提出了一个实体感知机制来帮助我们的模型更好地识别并预测新闻中的实体名称。我们对两辆公共大型新闻数据集,Goodnews和VisualEws进行实验。定量结果表明,我们的方法在基础型号上通过4-5点提高了物品困惑。定性结果展示了Engin产生的文本与新闻图像更加一致。我们还对所生成的文章进行文章质量注释实验,以验证我们的模型生产更高质量的文章。最后,我们调查了自动检测机器生成的物品的方法的效果。
translated by 谷歌翻译
短语检测需要方法来标识短语是否与图像相关,然后如果适用,则本地化。培训更多歧视性短语检测模型的关键挑战是采样硬质否定。这是因为少数短语被注释了可能适用的几乎无限的变化。为了解决这个问题,我们介绍了PFP-net,一个短语检测器,通过两种新方法区分短语。首先,我们将相关对象的短语组合成粗俗的视觉相干概念(例如动物VS汽车),然后培训我们的PFP-网以根据他们的概念成员来区分它们。其次,对于包含细粒般的互相令牌(例如颜色)的短语,我们强制模型只为每个区域选择一个适用的短语。我们在Flickr30k实体和Refcoco +数据集中评估我们的方法,在那里我们在这场具有挑战性任务的所有短语上通过1-1.5点改进地图。在考虑只考虑受我们细粒度推理模块影响的短语时,我们在两个数据集中都会在1-4分。
translated by 谷歌翻译
分析显微镜图像中细胞的形态可以为化合物或基因的功能提供洞察。解决此任务需要不仅可以从图像中提取生物信息的方法,而且还忽略了技术变异,即,用于收集显微镜图像的设备之间的实验过程或差异的变化。我们提出了与专家混合(团队)的嵌入学习方法提出了治疗计划,该方法学习了一组专家,专门专门捕获我们的培训集中的技术变异,然后在测试时间汇总专家的预测。因此,通过最大限度地减少每个专家的噪声,团队可以通过更少的技术变化偏差来学习强大的嵌入。要培训我们的模型,我们利用了处理样本,使我们的方法能够在每个小靶中捕获整个数据集的分布,同时仍然适用于GPU存储器。我们在三个数据集中评估了我们的方法,如药物发现,促进了识别细胞治疗的真实作用机制的表现,通过最先进的5.5-11%。
translated by 谷歌翻译
我们介绍了空间本地化叙述中的视频中的任务。我们的方法的关键是能够学会在与随附的叙述的视频中的大型视频中对自我监督进行空间地定位与自我监督的互动。为实现这一目标,我们提出了一种多层跨模型关注网络,可以在培训期间有效优化对比损失。我们介绍了一种分割的策略,可以通过视觉和自然语言方式计算和中间模态注意力之间的交替,这允许通过直接对比两种方式的表示来实现有效的培训。我们展示了我们对HOWTO100M教学数据集的自我训练的方法的有效性,并在YouCook2 DataSet中的本地化描述交互的新收集数据集上进行评估。我们展示了我们的方法优于替代基准,包括浅薄的共同关注和完全跨越的关注。我们还将我们的方法应用于在Flickr30k上的弱监管下的图像中的接地短语,并显示堆叠多个注意层是有效的,并且当与对区域丢失相结合时,在召回召回和指向时达到最先进的艺术状态手准确性。
translated by 谷歌翻译
The Flickr30k dataset has become a standard benchmark for sentence-based image description. This paper presents Flickr30k Entities, which augments the 158k captions from Flickr30k with 244k coreference chains, linking mentions of the same entities across different captions for the same image, and associating them with 276k manually annotated bounding boxes. Such annotations are essential for continued progress in automatic image description and grounded language understanding. They enable us to define a new benchmark for localization of textual entity mentions in an image. We present a strong baseline for this task that combines an image-text embedding, detectors for common objects, a color classifier, and a bias towards selecting larger objects. While our baseline rivals in accuracy more complex state-of-the-art models, we show that its gains cannot be easily parlayed into improvements on such tasks as image-sentence retrieval, thus underlining the limitations of current methods and the need for further research.
translated by 谷歌翻译
Location-aware networks will introduce new services and applications for modern convenience, surveillance, and public safety. In this paper, we consider the problem of cooperative localization in a wireless network where the position of certain anchor nodes can be controlled. We introduce an active planning method that aims at moving the anchors such that the information gain of future measurements is maximized. In the control layer of the proposed method, control inputs are calculated by minimizing the traces of approximate inverse Bayesian Fisher information matrixes (FIMs). The estimation layer computes estimates of the agent states and provides Gaussian representations of marginal posteriors of agent positions to the control layer for approximate Bayesian FIM computations. Based on a cost function that accumulates Bayesian FIM contributions over a sliding window of discrete future timesteps, a receding horizon (RH) control is performed. Approximations that make it possible to solve the resulting tree-search problem efficiently are also discussed. A numerical case study demonstrates the intelligent behavior of a single controlled anchor in a 3-D scenario and the resulting significantly improved localization accuracy.
translated by 谷歌翻译